将ListingCategory..numeric.由数值转换为因子。
根据EstimatedReturn和LoanOriginalAmount计算出每笔交易的实际利润Profit。
将ProsperRating..Alpha.中的空白值替换‘NA’,并且定义levels。
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## -1656.0 411.8 691.0 817.9 1119.5 4117.5 29084
## 'data.frame': 113937 obs. of 83 variables:
## $ ListingKey : Factor w/ 113066 levels "00003546482094282EF90E5",..: 7180 7193 6647 6669 6686 6689 6699 6706 6687 6687 ...
## $ ListingNumber : int 193129 1209647 81716 658116 909464 1074836 750899 768193 1023355 1023355 ...
## $ ListingCreationDate : Factor w/ 113064 levels "2005-11-09 20:44:28.847000000",..: 14184 111894 6429 64760 85967 100310 72556 74019 97834 97834 ...
## $ CreditGrade : Factor w/ 9 levels "","A","AA","B",..: 5 1 8 1 1 1 1 1 1 1 ...
## $ Term : int 36 36 36 36 36 60 36 36 36 36 ...
## $ LoanStatus : Factor w/ 12 levels "Cancelled","Chargedoff",..: 3 4 3 4 4 4 4 4 4 4 ...
## $ ClosedDate : Factor w/ 2803 levels "","2005-11-25 00:00:00",..: 1138 1 1263 1 1 1 1 1 1 1 ...
## $ BorrowerAPR : num 0.165 0.12 0.283 0.125 0.246 ...
## $ BorrowerRate : num 0.158 0.092 0.275 0.0974 0.2085 ...
## $ LenderYield : num 0.138 0.082 0.24 0.0874 0.1985 ...
## $ EstimatedEffectiveYield : num NA 0.0796 NA 0.0849 0.1832 ...
## $ EstimatedLoss : num NA 0.0249 NA 0.0249 0.0925 ...
## $ EstimatedReturn : num NA 0.0547 NA 0.06 0.0907 ...
## $ ProsperRating..numeric. : int NA 6 NA 6 3 5 2 4 7 7 ...
## $ ProsperRating..Alpha. : Factor w/ 8 levels "","A","AA","B",..: 1 2 1 2 6 4 7 5 3 3 ...
## $ ProsperScore : num NA 7 NA 9 4 10 2 4 9 11 ...
## $ ListingCategory..numeric. : Factor w/ 21 levels "0","1","2","3",..: 1 3 1 17 3 2 2 3 8 8 ...
## $ BorrowerState : Factor w/ 52 levels "","AK","AL","AR",..: 7 7 12 12 25 34 18 6 16 16 ...
## $ Occupation : Factor w/ 68 levels "","Accountant/CPA",..: 37 43 37 52 21 43 50 29 24 24 ...
## $ EmploymentStatus : Factor w/ 9 levels "","Employed",..: 9 2 4 2 2 2 2 2 2 2 ...
## $ EmploymentStatusDuration : int 2 44 NA 113 44 82 172 103 269 269 ...
## $ IsBorrowerHomeowner : Factor w/ 2 levels "False","True": 2 1 1 2 2 2 1 1 2 2 ...
## $ CurrentlyInGroup : Factor w/ 2 levels "False","True": 2 1 2 1 1 1 1 1 1 1 ...
## $ GroupKey : Factor w/ 707 levels "","00343376901312423168731",..: 1 1 335 1 1 1 1 1 1 1 ...
## $ DateCreditPulled : Factor w/ 112992 levels "2005-11-09 00:30:04.487000000",..: 14347 111883 6446 64724 85857 100382 72500 73937 97888 97888 ...
## $ CreditScoreRangeLower : int 640 680 480 800 680 740 680 700 820 820 ...
## $ CreditScoreRangeUpper : int 659 699 499 819 699 759 699 719 839 839 ...
## $ FirstRecordedCreditLine : Factor w/ 11586 levels "","1947-08-24 00:00:00",..: 8639 6617 8927 2247 9498 497 8265 7685 5543 5543 ...
## $ CurrentCreditLines : int 5 14 NA 5 19 21 10 6 17 17 ...
## $ OpenCreditLines : int 4 14 NA 5 19 17 7 6 16 16 ...
## $ TotalCreditLinespast7years : int 12 29 3 29 49 49 20 10 32 32 ...
## $ OpenRevolvingAccounts : int 1 13 0 7 6 13 6 5 12 12 ...
## $ OpenRevolvingMonthlyPayment : num 24 389 0 115 220 1410 214 101 219 219 ...
## $ InquiriesLast6Months : int 3 3 0 0 1 0 0 3 1 1 ...
## $ TotalInquiries : num 3 5 1 1 9 2 0 16 6 6 ...
## $ CurrentDelinquencies : int 2 0 1 4 0 0 0 0 0 0 ...
## $ AmountDelinquent : num 472 0 NA 10056 0 ...
## $ DelinquenciesLast7Years : int 4 0 0 14 0 0 0 0 0 0 ...
## $ PublicRecordsLast10Years : int 0 1 0 0 0 0 0 1 0 0 ...
## $ PublicRecordsLast12Months : int 0 0 NA 0 0 0 0 0 0 0 ...
## $ RevolvingCreditBalance : num 0 3989 NA 1444 6193 ...
## $ BankcardUtilization : num 0 0.21 NA 0.04 0.81 0.39 0.72 0.13 0.11 0.11 ...
## $ AvailableBankcardCredit : num 1500 10266 NA 30754 695 ...
## $ TotalTrades : num 11 29 NA 26 39 47 16 10 29 29 ...
## $ TradesNeverDelinquent..percentage. : num 0.81 1 NA 0.76 0.95 1 0.68 0.8 1 1 ...
## $ TradesOpenedLast6Months : num 0 2 NA 0 2 0 0 0 1 1 ...
## $ DebtToIncomeRatio : num 0.17 0.18 0.06 0.15 0.26 0.36 0.27 0.24 0.25 0.25 ...
## $ IncomeRange : Factor w/ 8 levels "$0","$1-24,999",..: 4 5 7 4 3 3 4 4 4 4 ...
## $ IncomeVerifiable : Factor w/ 2 levels "False","True": 2 2 2 2 2 2 2 2 2 2 ...
## $ StatedMonthlyIncome : num 3083 6125 2083 2875 9583 ...
## $ LoanKey : Factor w/ 113066 levels "00003683605746079487FF7",..: 100337 69837 46303 70776 71387 86505 91250 5425 908 908 ...
## $ TotalProsperLoans : int NA NA NA NA 1 NA NA NA NA NA ...
## $ TotalProsperPaymentsBilled : int NA NA NA NA 11 NA NA NA NA NA ...
## $ OnTimeProsperPayments : int NA NA NA NA 11 NA NA NA NA NA ...
## $ ProsperPaymentsLessThanOneMonthLate: int NA NA NA NA 0 NA NA NA NA NA ...
## $ ProsperPaymentsOneMonthPlusLate : int NA NA NA NA 0 NA NA NA NA NA ...
## $ ProsperPrincipalBorrowed : num NA NA NA NA 11000 NA NA NA NA NA ...
## $ ProsperPrincipalOutstanding : num NA NA NA NA 9948 ...
## $ ScorexChangeAtTimeOfListing : int NA NA NA NA NA NA NA NA NA NA ...
## $ LoanCurrentDaysDelinquent : int 0 0 0 0 0 0 0 0 0 0 ...
## $ LoanFirstDefaultedCycleNumber : int NA NA NA NA NA NA NA NA NA NA ...
## $ LoanMonthsSinceOrigination : int 78 0 86 16 6 3 11 10 3 3 ...
## $ LoanNumber : int 19141 134815 6466 77296 102670 123257 88353 90051 121268 121268 ...
## $ LoanOriginalAmount : int 9425 10000 3001 10000 15000 15000 3000 10000 10000 10000 ...
## $ LoanOriginationDate : Factor w/ 1873 levels "2005-11-15 00:00:00",..: 426 1866 260 1535 1757 1821 1649 1666 1813 1813 ...
## $ LoanOriginationQuarter : Factor w/ 33 levels "Q1 2006","Q1 2007",..: 18 8 2 32 24 33 16 16 33 33 ...
## $ MemberKey : Factor w/ 90831 levels "00003397697413387CAF966",..: 11071 10302 33781 54939 19465 48037 60448 40951 26129 26129 ...
## $ MonthlyLoanPayment : num 330 319 123 321 564 ...
## $ LP_CustomerPayments : num 11396 0 4187 5143 2820 ...
## $ LP_CustomerPrincipalPayments : num 9425 0 3001 4091 1563 ...
## $ LP_InterestandFees : num 1971 0 1186 1052 1257 ...
## $ LP_ServiceFees : num -133.2 0 -24.2 -108 -60.3 ...
## $ LP_CollectionFees : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_GrossPrincipalLoss : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_NetPrincipalLoss : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_NonPrincipalRecoverypayments : num 0 0 0 0 0 0 0 0 0 0 ...
## $ PercentFunded : num 1 1 1 1 1 1 1 1 1 1 ...
## $ Recommendations : int 0 0 0 0 0 0 0 0 0 0 ...
## $ InvestmentFromFriendsCount : int 0 0 0 0 0 0 0 0 0 0 ...
## $ InvestmentFromFriendsAmount : num 0 0 0 0 0 0 0 0 0 0 ...
## $ Investors : int 258 1 41 158 20 1 1 1 1 1 ...
## $ Profit : num NA 547 NA 600 1360 ...
## $ ProsperRating : Factor w/ 8 levels "AA","A","B","C",..: NA 2 NA 2 5 3 6 4 1 1 ...
分析中所选择的变量包括:EstimatedReturn, ProsperRating..Alpha., ProsperScore, ListingCategory..numeric., BorrowerState, Occupation, IsBorrowerHomeowner, CreditScoreRangeLower, AmountDelinquent, AvailableBankcardCredit, IncomeVerifiable, StatedMonthlyIncome, LoanOriginalAmount, Recommendations, InvestmentFromFriendsCount, InvestmentFromFriendsAmount, Term, Profit
查看Profit的分布情况,发现Profit总体呈现出右倾斜,Profit在200美元至600美元区间内各区段(每100美元为一个区段)的交易数量达到峰值,超过2000美元的就比较少了。Profit中位数约为691.0,第三四分位数为1119.5,可以认为Profit达到691美元以上即为收益较高的交易,这些也是值得关注的交易。
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## -1656.0 411.8 691.0 817.9 1119.5 4117.5 29084
发现有1456条交易评分为11分,由于评分的范围为1-10分,故为无效评分。
##
## 1 2 3 4 5 6 7 8 9 10 11
## 992 5766 7642 12595 9813 12278 10597 12053 6911 4750 1456
此处将11分替换为0分,然后查看评分分布情况。评分总体呈正态分布,4~8分的交易数量最多,低于4分货高于8分的交易数量明显减少。
与评分情况类似,评级也呈正态分布,C级的交易数量最多。
从贷款用途来看,绝大部分的贷款都是用于用途1(即Debt Consolidation),其次是用途7(即Other),剩余的贷款用途的交易数量基本都没超过7500。可见,绝大部分人的贷款用途是比较一致的。
各州的交易数量差别还是比较明显的。有些州的交易数量特别高,比如CA的交易数量将近15000笔,FL、NY和TX都有将近7000笔;相比之下,其它大部分州的交易数量都比较低,不少连1000笔都不到。
从贷款的职业来看,Other和Professional的交易数量特别多,主要原因是这两个类别都包括了多种职业的人,因此各自的交易总数较高。若去除这两个职业,其他交易数量较多的职业都是收入相抵较高和稳定的职业,比如Accountant/CPA、Computer Programmer、Executive、Skiller Labour、Teacher等。这些职业较高、经济状况也可能更好的贷款者可能会带来更高的Profit。
拥有房产和没有房产的贷款者数量基本相当。
信用评分下限总体呈正态分布,中位数为685.6。这样的分布情况与之前的ProsperRating或ProsperScore总体呼应。
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.0 660.0 680.0 685.6 720.0 880.0 591
AmountDelinquent的对数整体呈正态分布,中位数为984.5。
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.0 0.0 0.0 984.5 0.0 463881.0 7622
AvailableBankcardCredit的对数整体呈正态分布,中位数为11210。
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0 880 4100 11210 13180 646285 7544
绝大部分的贷款者的收入都可以得到核实。
AvailableBankcardCredit的对数整体呈正态分布,中位数为4667。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 3200 4667 5608 6825 1750003
尽管LoanOriginalAmount中位数为6500,没有呈现出明显的分布形态,但有50%的交易金额都在6500美元以下。比较有意思的是,交易金额在9000美元至10000美元及14000美元至15000美元这两个区段的交易数量较多。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 4000 6500 8337 12000 35000
绝大部分的交易都没有任何朋友推荐。
同样的,绝大部分交易也没有朋友投资。
即使有朋友愿意投资,金额往往也比较小,第三四分位数依然为0,平均值仅为16.55
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 0.00 16.55 0.00 25000.00
本数据集有113937条交易数据,81个变量,其中20个变量为因子,其余为数值型和实数型。
因子变量中,部分是有序因子变量,如下。 (best) —————-> (worst)
CreditGrade: AA, A, B, C, D, E, HR, NC;
ProsperRating..Alpha.: AA, A, B, C, D, E, HR;
IncomeRange: “$100,000+”, “$75,000-99,999”, “$50,000-74,999”, “$25,000-49,999”, “$1-24,999”, “$0”, “Not employed”, “Not displayed”;此项为贷方收入范围,故此处可以认为收入越高越好,且没有记录是最差的情况。
其余的因子变量均为日期(如ListingCreationDate)、代码号(如ListingKey)、州名(如BorrowerState)、职业类型(如Occupation)等无序因子。
其它的发现有:
大部分交易的收益率在0.06至0.13之间。实际收益在200至1200美元
ProsperRating..Alpha.总体呈正态分布,以评级C为中心,数量最多,等级优于或劣于C的均依次减少。
ListingCategory中“债务合并(Debt Consolidation)”的最多,占了总交易记录逾50%;其次是“其它(Other)”。
BorrowerState中,各州的贷款交易数差异较大,最多的CA有14717条交易,其次TX有6842条;按交易数排在最后三位的WY、ME和ND分别只有150、101和52条交易。
从贷款者的职业分布来看,同样各职业之间的差异较大。除了“其它职业(Other)”以外,“专业人士(Professional)”在总交易量中所占的数量最高,其次是“程序员(Computer Programmer)”和“执行人员(Executive)”;按交易数排在最后三位的“社区大学学生(Student - Community College)”、“法官(Judge)”和“技术学校学生(Student - Technical School)”分别只有28、22和16条交易。
其它有些数据也呈正态分布,如CreditScoreRangeLower、AmountDelinquent(log10)、AvailableBankcardCredit(log10)、StatedMonthlyIncome(log10)。
从Recommendations、InvestmentFromFriendsCount数据分布来看,只有很少一部分交易是由朋友推荐和投资的。
从InvestmentFromFriendsAmount数据分布来看,来自朋友的投资额并没有呈现出明显的规律(比如投资数额低的人数多,投资额高的人数少)。
我对Profit最感兴趣,希望找出能够预测Profit的那些变量/特征。我认为与Profit可能相关的特征有CreditGrade、ProsperRating..Alpha.、ProsperScore、ListingCategory..numeric.、CreditScoreRangeLower、AmountDelinquent、AvailableBankcardCredit、IncomeVerifiable、StatedMonthlyIncome、LoanOriginalAmount。
同时,我也对其它一些特征比较感兴趣,如BorrowerState、Occupation、IsBorrowerHomeowner、Recommendations、InvestmentFromFriendsCount、InvestmentFromFriendsAmount。结合这些特征,可能会有一些有意思的发现,比如来自哪些州的贷款者可能带来更高的收益、朋友的推荐和投资是否对投资收益有影响,等。
创建了变量Profit,该变量为EstimatedReturn和OriginalLoanAmount的乘积,为实际预期收益。
对ProsperScore进行了处理。该变量的数值范围为1-10,但是有些交易的评分为11分,超过了有效范围,故将11替换为0。 同时也将ListingCategory..numeric.由int转换为factor,因为这里的数字其实是代码,指代的是贷款用途的类型(比如装修)。
Profit的高低与ProposerRating..Alpha.有一定的相关性。总体来看,各等级评级的Profit呈现出“两头低、中间高”的形态;评级处于中间位置的B级、C级和D级交易的Profit中位数高于全部交易的Profit中位数,无论是评级降低还是升高,各级别交易的Profit的中位数都处于整体中位数之下。
贷款期限越长,总体Profit就越高,两者相关系数为0.45,中度相关。同时,贷款期限越长,IQR越大。
## [1] 0.4545507
各州之间的Profit没有明显差别。
有房产的贷款者能带来的Profit整体略高于没有房产的贷款者。
AmountDelinquent与Profit之间几乎没有相关性,两者的相关系数为-0.02。
## [1] -0.01607584
AvailableBankcardCredit的对数与Profit之间相关性很低,两者的相关系数为0.11。
## [1] 0.1107681
StatedMonthlyIncome与Profit之间相关性很低,两者的相关系数为0.14。
## [1] 0.1423907
LoanOriginalAmount与EstimatedReturn呈弱相关,相关系数为-0.29。整体来看,LoanOriginalAmount越高,EstimatedReturn越低。
## [1] -0.2861175
AvailableBankcardCredit与LoanOriginalAmount呈弱相关,相关系数为0.23。
## [1] 0.2298664
从职业分布来看,Profit最高的那些交易中的贷款者职业包括法官、医生、药剂师等收入较高、职业稳定性较好的人群,而在校大学生(依次是二年级、一年级、四年级和三年级)、社区大学学生这些群体带来的Profit明显低于全部交易的中位数。
Profit最高的十个职业是Pharmacist、Doctor、Principal、Engineer - Chemical、Executive、Judge、Pilot - Private/Commercial、Attorney、Nurse (RN)、Police Officer/Correction Officer。想要最大化Profit,可以重点关注这些职业人群特征。
计算排名前十职业Profit的中位数、平均数、最大值及最小值。
## # A tibble: 10 x 5
## Occupation P.median P.mean P.max P.min
## <fct> <dbl> <dbl> <dbl> <dbl>
## 1 Pharmacist 1066. 1185. 3168. 118.
## 2 Doctor 986. 1096. 3698. -200.
## 3 Principal 974. 1041. 2728. -142.
## 4 Engineer - Chemical 971. 979. 2502. 53.5
## 5 Executive 963. 1061. 3865. -132.
## 6 Judge 957. 1141. 2498. 289.
## 7 Pilot - Private/Commercial 906. 1039. 2900 46.5
## 8 Attorney 905 970. 3357 -627
## 9 Nurse (RN) 862 950. 3168. -754.
## 10 Police Officer/Correction Officer 815. 926. 3865. -83.2
从不同职业的LoanOriginalAmount来看,Profit排名前十的职业的LoanOriginalAmount也比较高,这可能是他们能带来更高Profit的原因。
从不同职业的StatedMonthlyIncome来看,Profit排名前十的职业的StatedMonthlyIncome也比较高,这可能是他们能带来更高Profit或能有更高的LoanOriginalAmount的原因。
在Profit排名前十的职业中,Judge的Profit明显高于其他职业。其它Profit相对较高的职业也多为对“知识水平更高的”职业,比如Doctor、Executive、Pharmacist以及Pilot。
从图上直观的可以看到,Profit与EstimatedReturn相关性不是很强,接下来通过计算相关系数来进一步检验。
Profit与EstimatedReturn之间的相关系数为0.1535612,相关性较弱。
## [1] 0.1535612
从图上直观的来看,Profit与LoanOriginalAmount之间的相关性比较明显,接下来通过计算相关系数来检验。
Profit与LoanOriginalAmount之间的相关系数为0.851494。可见,在Profit排名前十的人群中,贷款金额越高的人越能带来更高的Profit。
## [1] 0.851494
Profit最高的10个职业的贷款用途中没有10(Cosmetic Procedure)、11(Engagement Ring)、12(Green Loans)、17(RV)。收益最高的用途是9(Boat)、20(Wedding Loans)、8(Baby&Adoption)、1(Debt Consolidation)、3(Business),其中不少是较“贵”的消费。
在Profit排名前十的人群中,Term越长的交易Profit明显越高,这也与之前观察到的LoanOriginalAmount越高带来的Profit越高相印证。与此同时,可以发现Term越高,Profit的异常值就越少。
在Profit排名前十的人群中,Profit与Term之间的相关系数为0.4707612,为中度相关。
## [1] 0.4707612
Profit的高低与ProposerRating..Alpha.有一定的相关性。总体来看,各等级评级的Profit呈现出“两头低、中间高”的形态;评级处于中间位置的B级、C级和D级交易的Profit中位数高于全部交易的Profit中位数,无论是评级降低还是升高,各级别交易的Profit的中位数都处于整体中位数之下。
从职业分布来看,Profit最高的那些交易中的贷款者职业包括法官、医生、药剂师等收入较高、职业稳定性较好的人群,而在校大学生(依次是二年级、一年级、四年级和三年级)、社区大学学生这些群体带来的Profit明显低于全部交易的中位数。
从贷款用途来看,Profit最高的10个职业中,能得到Profit最多的用途主要是较“贵”的消费,比如Baby&Adoption(育儿及收养)、Boat(购买船/游艇)、Business(商用资金)、Medical/Dental(医疗/牙医),而Profit最低的10个职业中,能得到Profit最多的用途是较“便宜”的消费,比如Large Purchases(大额支出)、Tax(税款)。当然,这也可能和这些职业所处的年龄有关,Profit最低的10个职业中,以学生和一些初级职位为主,比如助教和餐饮从业者,相对年轻,消费能力比较有限,消费的类型也与该年龄段相匹配。
来自不同州的贷款者的Profit水平差异并没有很大,各州Profit的中位数与整体数据的中位数比较相近,各州Profit的分布形态也比较相近,四分位数的间距总体还是比较接近。
AmountDelinquent与Profit之间基本没有什么相关性,并不是作为一个预测Profit的很好的指标。
从AvailableBankCredit和StatedMonthlyIncome与预期收益的关系来看,信用额度越高、月收入越高的人群所能带来的Profit越高,但两者与Profit也仅为弱相关性,未必是预测Profit的很好的指标。
职业越好的贷款者,比如法官、医生、药剂师,其贷款的金额就越高,尽管这些贷款的预期收益率低,但是贷款金额高使得他们能带来较高的收益。
从LoanOriginalAmount与EstimatedReturn的关系来看,原始贷款金额越低,得到的收益越高。当原始贷款金额超过30000美元时,收益基本在0.05至0.1之间;相比之下,金额低于10000美元时,有相当多一部分交易的收益率在0.1以上。
经济状况越好(比如以职业、收入、信用额度、原始贷款总额来衡量)的群体,所能带来的Profit越高。
低评级(如D、E)的LoanOriginalAmount较低,基本不超过15000美元;高评级(如A和AA)的LoanOriginalAmount分布较为均匀,从低到高都有覆盖。此外,低评级的EstimatedReturn,尤其是HR级别的交易,集中于较低水平甚至小于0(即亏损)。
整体人群中,能带来最高Profit的贷款用途包含了Debt Consolidation,且以Debt Consolidation为用途的交易数量最多。在Debt Consolidation的交易中,LoanOriginalAmount越高的交易带来的Profit也相对更高。
Top 10 Occupation人群中,Profit最高的贷款用途与整体人群没有太大差异,也是以Debt Consolidation为主。
无论是从EstimatedAmount、LoanOriginalAmount还是Profit来看,各个职业的贷款者都是较为随机的分布,并没有呈现出哪个职业的LoanOriginalAmount、EstimatedReturn或Profit明显特别高。
期限为60个月的贷款EstimatedReturn普遍较高,且他们的LoanOriginalAmount也比较高,大部分都在10000美元以上。相比之下,期限为36个月的贷款在LoanOriginalAmount大于10000美元时,EstimatedReturn普遍偏低,基本都在0.1以下,而当LoanOriginalAmount小于10000美元时,EstimatedReturn分布较广。
同样的,在Top 10 Occupation人群中,贷款期限越长,带来的Profit整体越高,但是这一人群中,LoanOriginalAmount的交易数量较整体人群明显少了很多。
低评级(如D、E)的LoanOriginalAmount较低,基本不超过15000美元;高评级(如A和AA)的LoanOriginalAmount分布较为均匀,从低到高都有覆盖。
期限为60个月的贷款EstimatedReturn普遍较高,且他们的LoanOriginalAmount也比较高,大部分都在10000美元以上。相比之下,期限为36个月的贷款在LoanOriginalAmount大于10000美元时,EstimatedReturn普遍偏低,基本都在0.1以下,而当LoanOriginalAmount小于10000美元时,EstimatedReturn分布较广。
Top 10 Occupation人群所在交易中Profit最高的五种贷款用途中,以期限为36个月和60个月的贷款为主,期限为12个月的非常少;此外,总体而言,LoanOriginalAmount较高的交易Profit也更高。
Profit与LoanOriginalAmount之间具有较高的正相关性,即交易的LoanOriginalAmount越高,Profit就越高;相比之下,Profit受到EstimatedReturn的影响比较小。这一结论从另一方面也间接得到了印证,期限较长的贷款普遍来看带来的Profit更高,而一般来说,贷款期限长也是因为贷款的金额比较高。
比较有意思的是,无论是收入高低或职业“好坏”,在贷款用途上,不同的贷款者总体没有很大差异,都是以Debt Consolidation占了多数。可见,各类人群来借款的原因有共性。
## 25% 50% 75%
## 411.75 691.00 1119.45
交易Profit呈右倾斜分布,Profit在400美元至500美元的交易数量最多。交易Profit的中位数在700美元左右,故可以认为Profit在700美元以上即为Profit较高的交易;我们也可以发现,大于0的离群值数量明显多于小于0的离群值。
有些职业的贷款者所能带来的Profit(以中位数来衡量)明显高于其它职业或整体水平,Profit排名前十的职业(以下简称Top 10 Occupation)依次是Pharmacist, Doctor, Principal, Engineer - Chemical, Executive, Judge, Pilot - Private/Commercial, Attorney, Nurse (RN)及Police Officer/Correction Officer,他们的排名较高很有可能是因为这些人的经济水平较好(以职业或收入来衡量)。对于这些Profit最为丰厚的人群,可以进一步观察他们的交易有哪些特征。
从贷款交易的用途来看,虽然有一些其它的用途(例如Business、Baby&Adoption、Boat、Wedding Loans),但Top 10 Occupation中最多的为Debt Consolidation。Profit明显随着LoanOriginalAmount的数量增长而增长(即沿着X轴方向自左向右气泡大小明显增大),两者的相关系数约为0.85;相比之下,EstimatedReturn对Profit的影响很小(即沿着Y轴方向气泡大小没有明显变化),很难通过EstimatedReturn预测Profit的高低,两者的相关系数仅为0.15。
本数据集有113937条交易数据,81个变量,其中20个变量为因子,其余为数值型和实数型。进行数据分析大致步骤如下:首先,我先对各个变量进行单变量分析,查看他们的分布情况,在这一过程中对数据表中的部分数据进行了清洗(比如ProsperScore);然后,我进行了双变量探索,主要了解Profit与其他可能相关的变量之间的关系;最后,通过多变量分析,来了解Profit与多个相关变量之间的关系。
交易的Profit与LoanOriginalAmout呈明显的正相关性,两者相关系数为0.85。通过进一步分析,我发现影响LoanOriginalAmount的重要因素之一是贷款人的职业,职业越“好”,收入越高,贷款人可能需要的LoanOriginalAmount就越高。让我感到比较意外的是,不同人群的贷款用途没有很大的差别,都是以Debt Consolidation占多数,很难从目前选取的变量中找出各人群的不同点。
本次分析也受到了来自数据集本身的限制,比如数据缺失,这就导致在做很多某些方面的分析时会缺少很多数据,比如因为ProsperRating..Alpha.数据缺失导致在做Profit和ProsperRating..Alpha.双变量分析时缺少近30000条数据,相当于整个数据四分之一左右的数据。为了进一步提高分析,可能需要尝试补全这些缺失的数据。在贷款用途方面,可以考虑通过选取其它更多的相关变量来进一步探索不同人群在Debt Consolidation的区别。此外,也可以考虑是否需要对各人群做更细致的分析,针对每个人群分别进行分析,这样对每个人群的消费行为就会有更深入的理解。